Lịch sử Vocaloid

Lịch sử Vocaloid

Yamaha bắt đầu phát triển Vocaloid vào tháng 3 năm 2000[2] và thông báo dự án này tại hội chợ Musikmesse của người Đức vào tháng 3 năm 2003.[3] Ban đầu nó có tên là "Daisy", ngụ ý là liên quan đến bài hát "Daisy Bell", nhưng vì bản quyền sử dụng tên nên được đổi thành "Vocaloid".[4]

Nguyên lý công nghệ

Công nghệ tổng hợp giọng hát của Vocaloid thường được phân loại thành tổng hợp ghép trong miền tần số, giúp tách và xử lý các đoạn giọng được trích từ giọng hát của con người, dưới dạng biểu diễn tần số thời gian. Hệ thống Vocaloid có thể tạo ra giọng nói thực tế bằng cách thêm các biểu cảm giọng nói như tiếng rung (tương tự Auto-Tune) trên thông tin điểm số. Ban đầu, công nghệ tổng hợp của Vocaloid được gọi là "Ghép nối và tạo hình hát theo miền tần số" (周波 ドkhông còn được sử dụng kể từ khi phát hành Vocaloid 2 vào năm 2007. "Hát khớp nối" được giải thích là "biểu cảm giọng hát" như tiếng rung và những đoạn thanh âm cần thiết cho ca hát. Các công cụ tổng hợp Vocaloid và Vocaloid 2 được thiết kế để hát, không đọc to văn bản, mặc dù các phần mềm như Vocaloid-flex và Voiceroid đã được phát triển cho điều đó. Họ không thể sao chép một cách tự nhiên các biểu cảm hát như giọng nói khàn hoặc tiếng hét.

Kiến trúc hệ thống

Các phần chính của hệ thống Vocaloid 2 là Score Editor (Vocaloid 2 Editor), Thư viện Ca sĩ và Công cụ Tổng hợp. Công cụ Tổng hợp nhận thông tin điểm từ Trình chỉnh sửa Điểm, chọn các mẫu thích hợp từ Thư viện Ca sĩ và ghép chúng với các giọng nói tổng hợp. [3] Về cơ bản, không có sự khác biệt nào trong Trình chỉnh sửa Điểm và Công cụ Tổng hợp do Yamaha cung cấp giữa các sản phẩm Vocaloid 2 khác nhau. Nếu một sản phẩm Vocaloid 2 đã được cài đặt, người dùng có thể kích hoạt một sản phẩm Vocaloid 2 khác bằng cách thêm thư viện của nó. Hệ thống này hỗ trợ ba ngôn ngữ, tiếng Nhật, tiếng Hàn và tiếng Anh, mặc dù các ngôn ngữ khác có thể là tùy chọn trong tương lai. Nó hoạt động độc lập (phát lại và xuất sang WAV) và dưới dạng ứng dụng ReWire hoặc công cụ Công nghệ Studio ảo (VSTi) có thể truy cập từ máy trạm âm thanh kỹ thuật số (DAW).

Vocaloid Editor

Giao diện của Vocaloid Editor
Đoạn nhạc: "Sakura Sakura" do Hatsune Miku trình bày

Vocaloid Editor là trình chỉnh sửa kiểu cuộn piano để ghi chú đầu vào, lời bài hát và một số biểu thức. Khi nhập lời bài hát, biên tập viên sẽ tự động chuyển đổi chúng thành các ký hiệu ngữ âm Vocaloid bằng từ điển phát âm tích hợp. Người dùng có thể trực tiếp chỉnh sửa các ký hiệu ngữ âm của các từ chưa đăng ký. Vocaloid Editor cung cấp các thông số khác nhau để thêm biểu thức cho giọng hát. Người dùng có nghĩa vụ tối ưu hóa các tham số này phù hợp nhất với giai điệu tổng hợp khi tạo giọng nói. Trình chỉnh sửa này hỗ trợ ReWire và có thể được đồng bộ hóa với DAW. "Phát lại" các bài hát với lời bài hát được xác định trước bằng bàn phím MIDI cũng được hỗ trợ.

Thư viện ca sĩ

Mỗi giấy phép Vocaloid phát triển Thư viện ca sĩ hoặc cơ sở dữ liệu các đoạn phát âm được lấy mẫu từ người thật. Cơ sở dữ liệu phải có tất cả các tổ hợp âm vị của ngôn ngữ đích, bao gồm cả âm vị (một chuỗi gồm hai âm vị khác nhau) và nguyên âm duy trì, cũng như polyphones có nhiều hơn hai âm vị nếu cần thiết. Ví dụ: giọng nói tương ứng với từ "sing" ([sIN]) có thể được tổng hợp bằng cách ghép chuỗi các lưỡng cực "# -s, sI, IN, N- #" (# chỉ ra một âm vị không có tiếng) với nguyên âm không có tiếng ī. Hệ thống Vocaloid thay đổi cao độ của các đoạn này sao cho phù hợp với giai điệu. Để có được âm thanh tự nhiên hơn, cần phải lưu trữ ba hoặc bốn dải âm khác nhau vào thư viện. Tiếng Nhật cần 500 lưỡng cực trên mỗi âm tiết, trong khi tiếng Anh cần 2.500. Tiếng Nhật có ít âm sắc hơn vì nó có ít âm vị hơn và hầu hết các âm tiết là âm tiết mở kết thúc bằng nguyên âm. Trong tiếng Nhật, về cơ bản, có ba mẫu lưỡng âm chứa một phụ âm: vô âm-phụ âm, nguyên âm-phụ âm và phụ âm-nguyên âm. Mặt khác, tiếng Anh có nhiều âm tiết khép kín kết thúc bằng một phụ âm và phụ âm phụ âm và phụ âm không có âm. Do đó, nhiều lưỡng cực cần được ghi vào thư viện tiếng Anh hơn là tiếng Nhật. Do sự khác biệt về ngôn ngữ này, một thư viện Nhật Bản không phù hợp để hát bằng tiếng Anh hùng hồn.

Động cơ tổng hợp

Động cơ tổng hợp Vocaloid(dựa trên hình 4 trên Kenmochi, Ohshima, & Interspeech 2007)

Công cụ tổng hợp nhận thông tin điểm có trong các thông điệp MIDI chuyên dụng có tên là Vocaloid MIDI được gửi bởi Trình chỉnh sửa điểm, điều chỉnh cao độ và âm sắc của các mẫu được chọn trong miền tần số và ghép chúng để tổng hợp giọng hát. Khi Vocaloid chạy dưới dạng VSTi có thể truy cập từ DAW, trình cắm VST đi kèm bỏ qua Trình chỉnh sửa Điểm và gửi trực tiếp các tin nhắn này đến Công cụ Tổng hợp.

Điều chỉnh thời gian

Trong giọng hát, sự khởi đầu của phụ âm của một âm tiết được thốt ra trước khi bắt đầu nguyên âm. Vị trí bắt đầu của một ghi chú ("Ghi chú bật") phải giống với vị trí bắt đầu của nguyên âm, không phải là bắt đầu của âm tiết. Vocaloid giữ "điểm tổng hợp" trong bộ nhớ để điều chỉnh thời gian mẫu sao cho khởi động nguyên âm phải đúng ở vị trí "Note-On". Không điều chỉnh thời gian sẽ dẫn đến sự chậm trễ.

Chuyển đổi âm sắc

Vì các mẫu được ghi ở các cao độ khác nhau, nên cần phải chuyển đổi cao độ khi nối các mẫu. Công cụ tính toán cường độ mong muốn từ các ghi chú, thời gian tấn công và các thông số rung, sau đó chọn các mẫu cần thiết từ thư viện.

Thao tác âm sắc

Xử lý đỉnh phổ (SPP) để thao tác âm sắc (dựa trên hình 3 trên Bonada & Loscos 2003)
Nội suy đường bao phổ giữa các mẫu

Động cơ làm mượt âm sắc xung quanh đường giao nhau của các mẫu. Âm sắc của một nguyên âm bền vững được tạo ra bằng cách nội suy các phong bì phổ của các mẫu xung quanh. Ví dụ, khi ghép một chuỗi các lưỡng cực "se, e, et" của từ tiếng Anh "set", đường bao phổ của một ở mỗi khung được tạo ra bằng cách nội suy ē ở cuối "se" và trong bắt đầu của "et".

Biến đổi

Sau khi chuyển đổi cường độ và thao tác âm sắc, động cơ sẽ chuyển đổi, chẳng hạn như biến đổi Fourier nhanh nghịch đảo (IFFT) thành giọng nói tổng hợp đầu ra.

Tài liệu tham khảo

WikiPedia: Vocaloid http://www.allbusiness.com/manufacturing/miscellan... //www.amazon.com/dp/B000YKXQTI //www.amazon.com/dp/B001B7MJR8 http://www.animenewsnetwork.com/feature/2011-07-15 http://www.animenewsnetwork.com/interest/2011-03-2... http://www.animenewsnetwork.com/interest/2011-05-3... http://www.animenewsnetwork.com/news/2009-09-08/ha... http://www.animenewsnetwork.com/news/2010-03-24/bl... http://www.animenewsnetwork.com/review/mikunopolis... http://hangover.cartoonhangover.com/post/361262357...